论文推荐|[PR 2019]基于上下文感知网络模型的手写古籍文档图像信息抽取方法
许多历史手稿都记录了大量过去社会的宝贵信息。如图1所示,这些信息的登记往往都是结构化的,例如洗礼记录(上图)、死亡记录(左图)、病历(右图)以及结婚记录(下图)。抽取这些历史手稿中的信息,从而生成具有语义标记的数据库对于历史研究、文化遗产的保存和传播等方面具有重大的意义。对手稿图片进行信息抽取的常见方法是先进行手写文本识别(Handwritten Text Recognition, HTR),再利用自然语言处理(Natural Language Processing, NLP)技术对每个单词进行语义分析。而该论文使用的是另一种方法,即直接从单词图片中获取视觉信息进行语义分析,而将文本识别作为最后一步。
作者沿用了在文章[1]中提出的卷积网络结构来提取单词图片的视觉特征(Visual Features)。该网络和标准CNN的不同之处在于使用了空间金字塔池化(Spatial Pyramid Pooling[2], SPP)层,这可以处理具有不同的形状与长宽比的图片。为利用上下文信息来改善信息抽取的效果,该论文将卷积网络分别与两种语言模型相结合,分别是基于Bigram的语言模型以及基于BLSTM的语言模型。
该论文在ICDAR2017竞赛数据集IEHHR[4]上与其他论文中的方法进行了对比,结果见表1。需要说明的是,该竞赛根据不同任务分为两个部分,分别以Basic Score和Complete Score作为评分。而且为体现完整性,作者也呈现了文本行级别的识别方法及结果,但不参与对比。
从结果中可以看出,该论文的方法在所有情况下都优于作者之前在文章[1]中提出的方法(Word Level CNN),证明了上下文信息的利用在信息抽取中是非常重要的。基于Bigram语言模型的方法在Basic Score达到了87.98%,和其他论文中的方法相比位列第二;而在Complete Score只有79.68%,主要是因为该语言模型的语法规则太简单。而基于BLSTM语言模型的方法在Basic Score和Complete Score上分别达到了94.62%和94.02%,均是目前最好的效果。
该论文提出了两种神经网络结构来对古籍手写文档进行信息抽取。相较于先转录文本再进行语义分类的方法,该论文的方法无需转录就可以直接将文档图片进行语义分类从而达到信息抽取的目的。这种方法有两种优点:一是不受转录效果影响,二是无需基于字典对转录的结果进行语义分类,不会出现单词超纲(out of Vocabulary)的情况。
不在单词级别而在文本行行级别或者篇幅级别的图片上进行信息抽取。例如,可以采用基于内容的注意力机制。 利用数据增广技术增加模型的泛化能力,甚至使得模型能够探索位于不同区域的单词之间的关系。 探索如何利用语义标签来改善转录效果。 将直接从图片中抽取信息的方法与基于转录的方法相结合,或许可以带来性能的提升。
Information extraction from historical handwritten document images witha context-aware neural model论文地址:https://www.sciencedirect.com/science/article/pii/S0031320318303145/pdfft?md5=2f3d29b8fffe16fff2ac178620addffa&pid=1-s2.0-S0031320318303145-main.pdf
Handwritten wordimage categorization with convolutional neural networks and spatial pyramidpooling论文地址:http://www.cvc.uab.es/people/afornes/publi/chap_lncs/2016_LNCS_JIToledo.pdf
Spatial PyramidPooling in Deep Convolutional Networks for Visual Recognition 论文地址:https://arxiv.org/abs/1406.4729
LSTM neural networks for language modeling论文地址:https://pdfs.semanticscholar.org/f9a1/b3850dfd837793743565a8af95973d395a4e.pdf
ICDAR 2017 Competition on Information Extraction inHistorical Handwritten Records (IEHHR) 竞赛主页:http://www.cvc.uab.es/5cofm/competition/
[1] Toledo JI,Sudholt S, Fornés A, et al. Handwritten word image categorization with convolutional neural networks and spatial pyramid pooling[C]//Joint IAPR International Workshops on Statistical Techniques in Pattern Recognition (SPR) and Structural and Syntactic Pattern Recognition (SSPR). Springer, Cham, 2016:543-552.
[2] He K, Zhang X, Ren S, et al. Spatial pyramid pooling indeep convolutional networks for visual recognition[J]. IEEE transactions onpattern analysis and machine intelligence, 2015, 37(9): 1904-1916.
[3] Sundermeyer M, Schlüter R, Ney H. LSTM neural networksfor language modeling[C]//Thirteenth annual conference of the internationalspeech communication association. 2012.
[4] Fornés A, Romero V, Baró A, et al. ICDAR2017 competitionon information extraction in historical handwritten records[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE,2017, 1: 1389-1394.
原文作者:J.Ignacio Toledo, Manuel Carbonell, Alicia Fornés, Josep Lladós
编排:高 学
审校:殷 飞
发布:金连文
(扫描识别如上二维码加关注)